Fáza 1 - prieskumná analýza

Autori: Matej Delinčák (50%), Martin Pirkovský (50%)

1. Základný opis dát spolu s ich charakteristikami (5 bodov)

Sumarizácia dát z profiles.csv

Obsahuje 3134 záznamov s informáciami o pacientoch. Počet atribútov je rovný deviatim (mínus poradie záznamu). Vidíme, že všetky tieto atribúty su nejaké reťazce až na jeden. Tým je dátum narodenia, ktorý sme pri načítaní upravili na správny formát.

Zoznam jednotlivých atribútov:

  1. sex - pohlavie
  2. blood_group - krvná skupina
  3. job - zamestnanie
  4. residence - bydlisko
  5. ssn - social security number
  6. birthdate - dátum narodenia
  7. current_location - aktuálne miesto zdržovania
  8. race - rasa
  9. name - meno a priezvisko

Sumarizácia dát z labor.csv

Obsahuje 9965 záznamov s informáciami o pacientoch. Počet atribútov je rovný 17 (mínus poradie záznamu). Vidíme, že skoro všetky tieto atribúty su nejaké číselné hodnoty.

Zoznam jednotlivých atribútov:

  1. erytrocyty - hodnota červených krviniek v krvi
  2. trombocyty - hodnota krvných doštičiek v krvi
  3. weight - hmotnosť
  4. name - meno a priezvisko
  5. hbver - hodnota nosiča vírusu hepatitídy typu B
  6. ssn - social security number
  7. relationship - rodinný stav
  8. er-cv - hodnota pravdepodobnosti ochorenia typu kardiovaskulárnych ochorení s pacietami so zvýšenou hladinou estrogénu
  9. smoker - fajčiar
  10. indicator - nájdená choroba - rakovina
  11. hematokrit - podiel červených krviniek na celkový objem krvi
  12. leukocyty - hodnota bielych krviniek v krvi
  13. alp - hodnotu enzýmu alkalín fosfátu v krvi
  14. hemoglobin - hodnota červeného krvného farbiva v krvi
  15. alt - hodnotu enzýmu alanín transaminín v krvi
  16. ast - hodnotu enzýmu aspartat aminotransferasín v krvi
  17. etytr - nenašli sme

4. Identifikácia problémov v dátach s navrhnuným riešením v ďalšej fáze (3 body)

2. Párová analýza dát (5 bodov)

Vybrané zaujímave atribúty pre iný typ grafu a to trombocyty, leukocyty a atribút alp.

Následne ukážeme ako sa ovplyvňuju na grafe jednotlivé atribúty ale pre lepšiu vizualizáciu sme rozdelili na dva grafy.

V tejto sekcií sme vybrali zaujimavé atribúty, ktoré porovnávame s indikátorom.

V tejto sekcií sme zase vybrali najzaujímavejšie grafy (teraz už bez indikítora)

3. Formulácia a štatistické overenie hypotéz o dátach (2 body)

Hypoteza 1:

H0 → Hmotnosť chorejšieho človeka je v priemere rovnaká ako hmotnosť menej chorého.

H1 → Hmotnosť chorejšieho človeka je v priemere iná/väčšia/menšia ako hmotnosť menej chorého.

Vizuálne môžeme vidieť, že ide možno o podobné rozdelenie.

Zo shapiro testov vidíme, že p < 0.05 a teda môžme povedať, že obe serie nepochádzajú z normálneho rozdelenia. Nemôžme použiť t-test.

Z levenovho testu vidíme, že distribúcie majú rovnaké variancie.

Použili sme Mann-Whitney U-test a vyšlo nám, že H0 nezamietame. P > 0,05 a teda hmotnost zdravych a chorých je v priemere skoro rovnaká.


Hypoteza 2:

H0 → Hodnota leukocytov u zdravého človeka, je v priemere rovnaká ako u chorého človeka

H1 → H0 zamietame (je iná)

Zo shapiro testov vidíme, že p < 0.05 a teda môžme povedať, že obe serie nepochádzajú z normálneho rozdelenia. Nemôžme použiť t-test.

Z levenovho testu vidíme, že distribúcie majú rôzne variancie.

Použili sme Mann-Whitney U-test a nám vyšlo, že H0 zamietame v prospech H1 a môžme tvrdiť, že rozdiel je signifikantný (p < 0.001). Rozdiel je teda signifikantný.


Hypoteza 3:

H0 → Vek chorejšieho človeka je v priemere rovnaký ako vek menej chorého.

H1 → Vek chorejšieho človeka je v priemere iný ako vek menej chorého.

Zo shapiro testov vidíme, že p < 0.05 a teda môžme povedať, že obe serie nepochádzajú z normálneho rozdelenia. Nemôžme použiť t-test.

Z levenovho testu vidíme, že distribúcie majú rovnaké variancie.

Použili sme Kruskalov test nám vyšlo, ze nezamietame hypotezu H0 a teda v priemere sú tieto hodnoty rovnaké.